Loading...
机构名称:
¥ 1.0

当前使用广泛使用的对象检测数据集,例如Coco [23],Objects365 [32]和OpenImages V4 [19] [19],提供大量图像和类别,仍然具有有限的词汇。这些数据集的有限词汇限制了班级检测器的训练潜力,因为理想的检测器应该能够识别培训集外的新类别。即使是LVIS [16](例如LVIS [16])的大型词汇检测数据集,就类别的数量和多样性而言,也无法完全代表现实世界的复杂性。V3DET为研究社区提供了一个大型的对象检测数据集,该数据集可以加速对更通用的视觉检测系统的探索。基线级联结构非常适合处理V3DET数据集的分层类别结构。使用常见的检测改进策略,我们将监督轨道I视为具有复杂标签的传统对象检测任务。通过改善特征金字塔网(FPN)结构,我们希望网络可以有效地学习更深入的语义信息。此外,我们通过调整损失函数来构成标签。

arxiv:2406.09201v3 [CS.CV] 2024年6月21日

arxiv:2406.09201v3 [CS.CV] 2024年6月21日PDF文件第1页

arxiv:2406.09201v3 [CS.CV] 2024年6月21日PDF文件第2页

arxiv:2406.09201v3 [CS.CV] 2024年6月21日PDF文件第3页

arxiv:2406.09201v3 [CS.CV] 2024年6月21日PDF文件第4页

arxiv:2406.09201v3 [CS.CV] 2024年6月21日PDF文件第5页

相关文件推荐